• • 下一篇
徐月梅1,叶宇齐2,何雪怡1
XU Yuemei1,
YE Yuqi2, HE Xueyi1
摘要: 针对大语言模型(LLM)输出内容存在偏见而导致其不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度,深入梳理和分析现有大语言模型偏见的研究现状、技术与局限。首先,概述大语言模型的三大关键技术,从中分析其不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有大语言模型存在的偏见类型,分为语言偏见、人口偏见和评估偏见,分析这些偏见的特点和原因;再次,系统回顾现有大语言模型偏见的评估基准,探讨这些通用型评估基准、特定语言评估基准、和特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏两个角度对现有大语言模型偏见的去除技术进行深入分析,指出其改进方向。分析指出大语言模型偏见研究的三个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及增强偏见的可解释性。
中图分类号: